Los datos tienen la siguiente forma:
## id budget genres homePage
## Min. : 5 Min. : 0 Length:10000 Length:10000
## 1st Qu.: 12286 1st Qu.: 0 Class :character Class :character
## Median :152558 Median : 500000 Mode :character Mode :character
## Mean :249877 Mean : 18551632
## 3rd Qu.:452022 3rd Qu.: 20000000
## Max. :922260 Max. :380000000
## productionCompany productionCompanyCountry productionCountry
## Length:10000 Length:10000 Length:10000
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
## revenue runtime video director
## Min. :0.000e+00 Min. : 0.0 Mode :logical Length:10000
## 1st Qu.:0.000e+00 1st Qu.: 90.0 FALSE:9430 Class :character
## Median :1.631e+05 Median :100.0 TRUE :84 Mode :character
## Mean :5.674e+07 Mean :100.3 NA's :486
## 3rd Qu.:4.480e+07 3rd Qu.:113.0
## Max. :2.847e+09 Max. :750.0
## actors actorsPopularity actorsCharacter originalTitle
## Length:10000 Length:10000 Length:10000 Length:10000
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## title originalLanguage popularity releaseDate
## Length:10000 Length:10000 Min. : 4.258 Length:10000
## Class :character Class :character 1st Qu.: 14.578 Class :character
## Mode :character Mode :character Median : 21.906 Mode :character
## Mean : 51.394
## 3rd Qu.: 40.654
## Max. :11474.647
## voteAvg voteCount genresAmount productionCoAmount
## Min. : 1.300 Min. : 1 Min. : 0.000 Min. : 0.000
## 1st Qu.: 5.900 1st Qu.: 120 1st Qu.: 2.000 1st Qu.: 2.000
## Median : 6.500 Median : 415 Median : 3.000 Median : 3.000
## Mean : 6.483 Mean : 1342 Mean : 2.596 Mean : 3.171
## 3rd Qu.: 7.200 3rd Qu.: 1316 3rd Qu.: 3.000 3rd Qu.: 4.000
## Max. :10.000 Max. :30788 Max. :16.000 Max. :89.000
## productionCountriesAmount actorsAmount castWomenAmount
## Min. : 0.000 Min. : 0 Length:10000
## 1st Qu.: 1.000 1st Qu.: 13 Class :character
## Median : 1.000 Median : 21 Mode :character
## Mean : 1.751 Mean : 2148
## 3rd Qu.: 2.000 3rd Qu.: 36
## Max. :155.000 Max. :919590
## castMenAmount
## Length:10000
## Class :character
## Mode :character
##
##
##
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Para la distribución de esta variable se puede ver que su distribución no se asemeja en nada a una distribución normal, podemos ver en el histograma un sesgo hacia la derecha y en el QQ Plot los datos se alejan de la directriz.
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 216.729552454138)
Para esta variable, su distribución no termina de asemejarse a una distribución normal, ni en el histograma ni en el QQ Plot.
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 36626690.4140968)
Para esta variable se nota a simple vista que los datos no pertenecen a una distribución normal, los datos (ni en el histograma como en el QQ Plot) se ajustan a una distribución normal.
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 149585418.842804)
La distribución para esta variable demuestra que sus datos estan en la directriz del QQ Plot, pero viendo la distribución en el histograma se puede apreciar que su distribución es uniforme.
La siguiente tabla de frecuencia muestra la cantidad total de apariciones por cada una de los titulos originales de las peliculas.
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Titulo original Cantidad
## 1 Pinocchio 4
## 2 Alice in Wonderland 3
## 3 Awake 3
## 4 Carrie 3
## 5 Cinderella 3
## 6 Escape Room 3
La siguiente tabla de frecuencia muestra la cantidad total de apariciones por cada una de los Idiomas originales de las peliculas.
## Idioma original Cantidad
## 1 en 7772
## 2 ja 644
## 3 es 425
## 4 fr 271
## 5 ko 167
## 6 zh 119
La siguiente tabla de frecuencia muestra la cantidad total de apariciones por cada una de los titulos de las peliculas.
## Titutlo Cantidad
## 1 Cinderella 4
## 2 Pinocchio 4
## 3 Alice in Wonderland 3
## 4 Awake 3
## 5 Beauty and the Beast 3
## 6 Carrie 3
La siguiente tabla de frecuencia muestra la cantidad total de apariciones por cada una de las home pages de las peliculas.
## Home Page Cantidad
## 1 http://www.naruto-movie.com/ 6
## 2 http://www.thehungergames.movie/ 4
## 3 http://initiald-movie.com/ 3
## 4 http://kizumonogatari-usa.com/ 3
## 5 http://www.americanreunionmovie.com/ 3
## 6 http://www.kungfupanda.com 3
La siguiente tabla de frecuencia muestra la cantidad total de peliculas que cuentan o no con un video.
## Video Cantidad
## 1 FALSE 9430
## 2 NA 486
## 3 TRUE 84
La siguiente tabla de frecuencia muestra la cantidad total de veces que un director a dirigido una pelicula.
## Warning in gregexpr(pattern, x, perl = TRUE): input string 19 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 82 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 127 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 153 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 161 is invalid UTF-8
## # A tibble: 6 × 2
## Director Cantidad
## <chr> <int>
## 1 "" 74
## 2 "Steven Spielberg" 30
## 3 "Clint Eastwood" 28
## 4 "Ridley Scott" 23
## 5 "Sam Liu" 22
## 6 "Kunihiko Yuyama" 21
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 27.7778289858714)
Para esta variable se nota a simple vista que los datos no pertenecen a una distribución normal, los datos (ni en el histograma como en el QQ Plot) se ajustan a una distribución normal.
La siguiente tabla de frecuencia muestra los posibles géneros que puede tener una pelicula.
## # A tibble: 6 × 2
## Género Cantidad
## <chr> <int>
## 1 Drama 3789
## 2 Comedy 3018
## 3 Action 2632
## 4 Thriller 2565
## 5 Adventure 1769
## 6 Horror 1512
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 1.15456530872238)
Para esta variable se nota a simple vista que los datos no pertenecen a una distribución normal, los datos (ni en el histograma como en el QQ Plot) se ajustan a una distribución normal.
La siguiente tabla de frecuencia muestra la cantidad total de peliculas que ha hecho cada productora.
## Compañía productora Cantidad
## 1 457
## 2 Paramount 55
## 3 Universal Pictures 50
## 4 Warner Bros. Pictures 37
## 5 Toei Animation 34
## 6 DreamWorks Animation 33
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 2.53973759800234)
La distribución para esta variable demuestra que sus datos estan en la directriz del QQ Plot, pero viendo la distribución en el histograma se puede apreciar que su distribución es uniforme.
La siguiente tabla de frecuencia muestra el número de productoras que se ubican en determinados países.
## # A tibble: 6 × 2
## `País de Compañía productora` Cantidad
## <chr> <int>
## 1 US 12675
## 2 JP 1604
## 3 FR 1478
## 4 GB 1413
## 5 DE 511
## 6 CA 507
La siguiente tabla de frecuencia muestra la cantidad de veces que se ha producido una pelicula en ese país.
## # A tibble: 6 × 2
## `País de producción` Cantidad
## <chr> <int>
## 1 United States of America 6788
## 2 United Kingdom 1171
## 3 Japan 731
## 4 France 668
## 5 Canada 634
## 6 Germany 507
La distribución para esta variable demuestra que sus datos estan en la directriz del QQ Plot, pero viendo la distribución en el histograma se puede apreciar que su distribución es uniforme.
La siguiente tabla de frecuencia muestra las fechas en las que se han lanzado las diferentes peliculas.
## Fecha de lanzamiento Cantidad
## 1 2021-02-12 15
## 2 2021-10-08 15
## 3 2021-10-01 14
## 4 2021-11-12 12
## 5 2019-05-24 11
## 6 2019-11-08 11
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 2564.19663712987)
Para esta variable se nota a simple vista que los datos no pertenecen a una distribución normal, los datos (ni en el histograma como en el QQ Plot) se ajustan a una distribución normal.
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 0.98427399611589)
Para esta variable se nota a simple vista que los datos no pertenecen a una distribución normal, los datos (ni en el histograma como en el QQ Plot) se ajustan a una distribución normal.
La siguiente tabla de frecuencia muestra el nombre de los actores, indicando cuantas veces ha actuado.
## Warning in gregexpr(pattern, x, perl = TRUE): input string 2 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 8 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 9 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 10 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 11 is invalid UTF-8
## # A tibble: 6 × 2
## Actor Cantidad
## <chr> <int>
## 1 "Frank Welker" 118
## 2 "" 80
## 3 "Grey DeLisle" 77
## 4 "Jeff Bennett" 74
## 5 "Dee Bradley Baker" 72
## 6 "Kevin Michael Richardson" 70
Para esta variable se nota a simple vista que los datos no pertenecen a una distribución normal, los datos (ni en el histograma como en el QQ Plot) se ajustan a una distribución normal.
La siguiente tabla de frecuencia muestra la cantidad de apariciones que ha tenido un personaje indicando si fue solo por voz o si el personaje no fue acreditado.
## Warning in gregexpr(pattern, x, perl = TRUE): input string 19 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 33 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 37 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 38 is invalid UTF-8
## Warning in gregexpr(pattern, x, perl = TRUE): input string 39 is invalid UTF-8
## # A tibble: 6 × 2
## Personaje Cantidad
## <chr> <int>
## 1 Self 1708
## 2 Additional Voices (voice) 1460
## 3 Himself 1360
## 4 Dancer 927
## 5 Herself 411
## 6 Reporter 405
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! unused argument (se = 37200.0758016621)
Para esta variable se nota a simple vista que los datos no pertenecen a una distribución normal, los datos (ni en el histograma como en el QQ Plot) se ajustan a una distribución normal.
Para esta variable se nota a simple vista que los datos no pertenecen a una distribución normal, los datos (ni en el histograma como en el QQ Plot) se ajustan a una distribución normal.
Se puede ver por el QQ plot que los datos se asemejan un poco a una distribución normal pero se puede observar por la cola derecha de los datos, que no se ajustan a la directriz de la gráfica y esa curva que se crea esta bastante pronunciada. Esto demuestra que la variable castMenAmount no se ajusta a una distribución normal.
## Título Presupuesto
## 717 Pirates of the Caribbean: On Stranger Tides 380000000
## 4711 Avengers: Age of Ultron 365000000
## 5953 Avengers: Endgame 356000000
## 164 Pirates of the Caribbean: At World's End 300000000
## 4954 Justice League 300000000
## 5954 Avengers: Infinity War 300000000
## 608 Superman Returns 270000000
## 3792 Tangled 260000000
## 7135 The Lion King 260000000
## 281 Spider-Man 3 258000000
Como se puede ver la película con mayor presupuesto es: Pirates of the Caribbean: On Stranger Tides con un presupuesto de: 380000000 dólares! Mientras que la última película dentro del top 10 es: Spider-Man 3 con un presupuesto de $258000000.
## Título Ingresos
## 3211 Avatar 2847246203
## 5953 Avengers: Endgame 2797800564
## 308 Titanic 2187463944
## 4948 Star Wars: The Force Awakens 2068223624
## 5954 Avengers: Infinity War 2046239637
## 4915 Jurassic World 1671713208
## 7135 The Lion King 1667635327
## 9050 Spider-Man: No Way Home 1631853496
## 3398 The Avengers 1518815515
## 5088 Furious 7 1515047671
Como se puede ver la película con mayores ingresos es: Avatar con una cantidad de: 2.8472462^{9} dólares! Mientras que la última película dentro del top 10 es: Furious 7 con un ingresos de $1.5150477^{9}.
La película que más votos tuvo es: Inception con una cantidad de votos igual a: 30788.
La película que menos votos tuvo es: La Mera Reyna del Sur con una cantidad de votos igual a: 1.
La tendencia en general de las películas ha ido en aumento conforme pasan los años, los demás datos de 2000 hacia atrás son más y más bajos.
En el año en donde más películas se han hecho es en el 2021 con un total de: 816 películas que fueron lanzadas al cine.
Los dos géneros más populares entre las últimas 20 películas son Comedia y Drama. Mientras que en todos los datos:
##
## Attaching package: 'data.table'
## The following objects are masked from 'package:dplyr':
##
## between, first, last
## Warning in as.data.table.list(jval, .named = NULL): Item 1 has 10000 rows but
## longest item has 25851; recycled with remainder.
El género principal que predomina en todos los datos es Drama con una cantidad de películas del género igual a 3789.
¿A qué género principal pertenecen las películas más largas?
En la gráfica de arriba podemos ver los géneros de las top 20 películas más largas, como se puede ver el género de drama es el más usado y por una gran ventaja.
## Warning in as.data.table.list(jval, .named = NULL): Item 1 has 10000 rows but
## longest item has 25851; recycled with remainder.
## Warning in as.data.table.list(jval, .named = NULL): Item 3 has 10000 rows but
## longest item has 25851; recycled with remainder.
Como se puede ver en la gráfica, el género de película que mayores ingresos genera es Drama seguido de Comedia con $2.0515967^{11}y $1.7012558^{11} respectivamente.
Como se puede ver, una mayor cantidad de actores no implica una mayor cantidad de ingresos sin embargo se tiene un buen punto medio alrededor de 42 actores.
Con respecto a la cantidad de actores por años podemos reflejarlo en el siguiente gráfico:
Como se puede ver por la gráfica de barras la cantidad de actores por año sí ha ido creciendo año por año! El 2022 no está completo dentro del dataset y por eso tiene resultados tan bajos.
Se puede ver que la correlación entre la diferencia de géneros y las ganancias es 0.3574605, y la correlación entre la diferencia de géneros y la popularidad es 0.1438501. Esto indica que la cantidad de hombres y mujeres no influye en la ganancia ni popularidad de las peliculas.
## director
## <char>
## 1: Robert Zemeckis
## 2: Francis Ford Coppola
## 3: George Lucas
## 4: Fritz Lang
## 5: Michel Gondry
## 6: Sam Mendes
## 7: Orson Welles
## 8: Quentin Tarantino
## 9: Lars von Trier
## 10: Clint Eastwood
## 11: Andrew Stanton
## 12: Gore Verbinski
## 13: Alejandro Gonz\xe1lez I\xf1\xe1rritu
## 14: Luc Besson
## 15: Gore Verbinski
## 16: David Silverman
## 17: Sam Mendes
## 18: Stephen Hopkins
## 19: Allison Anders|Alexandre Rockwell|Robert Rodriguez|Quentin Tarantino
## 20: Michael Winterbottom
## director
Estos son los 20 directores que han dirigido las peliculas mejores calificadas.
Se puede encontrar una relación entre el presupuesto y la ganancia. Es apreciable como a mayor presupuesto hay una mayor ganancia en las peliculas. Para corroborar este dato podemos calcular la variable de correlación que es 0.757454, al ser cercanan a 1 nos inidica una correlación positiva entre el presupuesto y las ganancias.
Se puede ver que los mejores meses para generar ingresos es en Junio y Mayo.
Los meses donde se han visto los mejores lanzamientos han sido: April, June, July, November, December.
A continuación se muestra el promedio de peliculas por mes:
## # A tibble: 12 × 2
## mes promedio_peliculas
## <chr> <dbl>
## 1 01 6.59
## 2 02 7.13
## 3 03 8.23
## 4 04 7.03
## 5 05 7.05
## 6 06 8.27
## 7 07 8.20
## 8 08 9.22
## 9 09 10.9
## 10 10 10.8
## 11 11 8.15
## 12 12 9.44
## [1] 0.1644844
Según el coeficiente de correlación entre las calificaciones y el éxito comercial de una pelicula, nos indica que no existe una clara relación entre estas variables y que pueden haber peliculas que no sean exitosos comerciales pero tengan buena calificación como exitos comerciales que tengan mala calificación, entre otros posibles casos.
## Categoria Promedio_Ganancia
## 1 Sin homePage y con video 423701.5
## 2 Con homePage y sin video 77757141.6
## 3 Con homePage y con video 712829.1
Se ve que la mejor estrategia de marketing son las páginas oficiles sin ofrecer video.
Se puede ver que no existe una correlación clara entre la popularidad de los actores de una cinta con su ganacia, esto es incluso más perceptible con el coeficiente de correlación que es cercano a 0: 0.2184582.
Como se puede ver, las películas más largas no necesariamente implican una mayor cantidad de ingresos, de hecho varias de las películas que han generado grandes cantidades de ingresos son menores en duración a 200 minutos. Ahora con respecto al rating:
Como se puede ver por la gráfica, una mayor duración de la película no implica una mayor cantidad de votos.
## Warning in as.data.table.list(jval, .named = NULL): Item 1 has 10000 rows but
## longest item has 13465; recycled with remainder.
Como se puede ver, el país que produce la mayor cantidad de películas es los Estados Unidos de América y por mucho, ya que en total ha producido 6788 películas.
Como se puede ver, más géneros no implica mejores ganancias! De hecho parece que el sweet spot es 3 géneros.
Se puede ver un aumento en el presupuesto a lo largo de los años, lleagndo a su punto más alto a finales de los años 90. El presupuesto promedio tuvo un leve descenso en este siglo XXI pero ya en años más recientes el presupuesto promedio por año ha estado en ascenso.
## Año Presupuesto Pelicula
## <char> <int> <char>
## 1: 2011 380000000 Pirates of the Caribbean: On Stranger Tides
## 2: 2015 365000000 Avengers: Age of Ultron
## 3: 2019 356000000 Avengers: Endgame
## 4: 2007 300000000 Pirates of the Caribbean: At World's End
## 5: 2017 300000000 Justice League
## 6: 2018 300000000 Avengers: Infinity War
## 7: 2006 270000000 Superman Returns
## 8: 2010 260000000 Tangled
## 9: 2019 260000000 The Lion King
## 10: 2007 258000000 Spider-Man 3
Estos serían los años en donde se han producido las peliculas con mayores presupuesto, adjunto a esta información se encuentra el nombre respectivo de la pelicula.
Estas son las Compañias productoras más exitosas en terminos de los ingresos totales generados. Es apreciable estudios como “Warner Bros. Pictures” tenga el mayor número de ingresos debido a que es uno de las compañias más longevas y que sigue vigente a día de hoy.